Modèles probabilistes pour les fréquences de mots et la recherche d'information. (Probabilistic Models of Document Collections)
نویسنده
چکیده
The present study deals with word frequencies distributions and their relation to probabilistic Information Retrieval (IR) models. We examine the burstiness phenomenon (a rich get richer phenomenon) of word frequencies in textual collections. We propose to model this phenomenon as a property of probability distributions and we show that the Beta Negative Binomial distribution is a good statistical model for words frequencies. We then focus on probabilistic IR models and their fundamental properties. We then introduce a novel family of probabilistic models, based on Shannon information. These new models bridge the gap between significant properties of IR models and the burstiness phenomenon of word frequencies. These new models yield comparable performances to state of the art IR models and outperform them when Pseudo Relevance Feedback is used. Lastly, the better performances of our models for Pseudo Relevance Feedback (PRF) lead us to study empirically and theoretically PRF models. We propose a theoretical framework which explain well the empirical behaviour and performance of PRF models. Overall, this analysis highlights interesting properties for pseudo relevance feedback and shows that some state-of-the-art model are inadequate.
منابع مشابه
La structure thème-rhème pour l'ordonnancement de documents en recherche d'information
RÉSUMÉ. La recherche d’information fait souvent l’hypothèse que les documents pertinents sont ”à propos de” la requête; la requête est ainsi supposée refléter le besoin d’information de l’utilisateur de façon appropriée. La plupart des moteurs de recherche fait l’hypothèse que le fait d’être ”à propos de” peut être mesuré par l’appariement des termes du document et ceux de la requête selon une ...
متن کاملTexte et Représentation en Recherche d'Information
Les performances des modèles de Recherche d'Information (RI) sont for-tement liées à leur capacité à représenter le texte. Ces dernières années, portés par les succès en reconnaissance d'image et de parole, de nombreux modèles basés sur les réseaux de neurones et les représentations distri-buées des mots et phrases sont apparus. Quelques modèles ont essayé d'aborder le problème de la RI, dont u...
متن کاملModèle unifié pour la recherche d'information sémantique
Résumé : Un modèle documentaire permet de définir les unités d’indexation (mots, termes, etc.) et de les relier aux documents dans lesquels elles apparaissent. Il permet également de définir les liens entre documents ou portions de documents (ex. citation). Les modèles documentaires sont généralement exploités en recherche d’information pour la représentation des documents et des requêtes et il...
متن کاملOn the Probabilistic Modelling of the Form ~ Function Articulation for Prosodic Phenomena
RÉSUMÉ – Modélisation probabiliste de l’interface « forme ~ fonction » pour des phénomènes intonatifs Nous explorons l’application des méthodes hybrides, reposant à la fois sur des représentations symboliques (phonologiques) et probabilistes dans la modélisation de l’interface « forme ~ fonction » pour des phénomènes intonatifs. À partir d’une représentation symbolique ancrée dans l’acoustique ...
متن کاملTraitement d'attributs inter-dépendants pour la recherche d'information par treillis
HAL is a multidisciplinary open access archive for the deposit and dissemination of scientific research documents, whether they are published or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers. L'archive ouverte pluridisciplinaire HAL, est destinée au dépôt età la diffusion de documents scientifiques de niveau r...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
عنوان ژورنال:
دوره شماره
صفحات -
تاریخ انتشار 2011